智能论文笔记

提取复杂刺激的潜在来源对于理解世界至关重要。尽管大脑不断解决这种盲源分离（BSS）问题，但其算法仍然未知。先前关于生物学上可行的BSS算法的工作假设观察到的信号是统计独立或不相关的源的线性混合物，从而限制了这些算法的适用性域。为了克服这一局限性，我们提出了新型的生物学上的神经网络，以盲目地分离潜在的依赖/相关来源。与以前的工作不同，我们假设源向量的一般几何形状，而不是统计条件，允许分离潜在的依赖/相关源。具体而言，我们假设源矢量足够散布在其域中，可以用某些多面体描述。然后，我们考虑通过det-Max标准恢复这些源，这使输出相关矩阵的决定因素最大化，以实施类似的传播源估计值。从这个规范性原理开始，并使用加权相似性匹配方法，该方法可以通过本地学习规则适应任意线性转换，我们得出了两层覆盖生物学上可见的神经网络算法，这些神经网络算法可以将混合物分离为来自各种源域的来源。我们证明，我们的算法在相关的源分离问题上优于其他生物学上的BSS算法。

translated by 谷歌翻译

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

Haiyang Liu , Zihao Zhu , Naoya Iwamoto , Yichen Peng , Zhengqing Li , You Zhou , Elif Bozkurt , Bo Zheng

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-03-10

由于缺乏可用的数据集，模型和标准评估指标，因此以多模式数据为条件的现实，生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题，我们构建了人体表达式 - aauio-Text数据集，Beat，它具有76小时，高质量的，高质量的多模式数据，这些数据从30位扬声器中捕获了八种不同的情绪，用四种不同的语言，ii）32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明，除了与音频，文本和说话者身份的已知相关性外，对话式手势与面部表情，情感和语义的相关性。基于此观察结果，我们提出了一个基线模型，即级联运动网络（CAMN），该模型由以上六种模式组成，该模式在级联的架构中建模以进行手势合成。为了评估语义相关性，我们引入了指标，语义相关性召回（SRGR）。定性和定量实验证明了指标的有效性，地面真相数据质量以及基线的最先进性能。据我们所知，BEAT是用于研究人类手势的最大运动捕获数据集，这可能有助于许多不同的研究领域，包括可控的手势合成，跨模式分析和情感手势识别。数据，代码和模型可在https://pantomatrix.github.io/beat/上获得。

translated by 谷歌翻译